ppo模型训练部署网!

ppo模型训练部署网

趋势迷

ppo模型训练部署

2024-07-16 21:34:08 来源:网络

ppo模型训练部署

让机器像人类一样学习? -
比如,最先进的策略梯度法(PPO )需要一亿个样本来学习一个良好的类人策略,如果我们在一个真实的机器人上运行这个算法,并用一个20 赫兹控制器使其连续运行,在不计算重置时间的情况下,需要耗费近两个月的时间来学习。其效率低下的主要原因是形成策略梯度更新的数据必须从现行策略中希望你能满意。
具体来看,MetaNet不仅基于强化学习的PPO算法提出了统一搜索架构,并且,为了避免传统的下采样模块会成为模型性能的瓶颈,“书生“结合了包含local-global-DSM (LG_DSM) 和global-DSM (G-DSM)的context-aware down-sampling modules (DSM),用来代替原本的下采样模块。 因此,在浅层,模型依然使用卷积来提取特征,但后面会介绍。

ppo模型训练部署